2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

Update: 2025-10-23

Description

本期的 15 篇论文如下：

[00:19 ] 🧠 Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning（每一种注意力都重要：面向长上下文推理的高效混合架构）

[00:59 ] ⚖ BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping（BAPO：通过自适应裁剪的平衡策略优化稳定LLM离策略强化学习）

[01:40 ] 🧠 LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts（LoongRL：面向长文本高级推理的强化学习方法）

[02:18 ] 🌍 GigaBrain-0: A World Model-Powered Vision-Language-Action Model（GigaBrain-0：基于世界模型的通才视觉-语言-动作大模型）

[02:49 ] 🔄 Language Models are Injective and Hence Invertible（语言模型是单射的，因此可逆）

[03:25 ] 📹 VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos（VideoAgentTrek：利用无标注视频预训练计算机操作智能体）

[04:01 ] 📲 DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents（DaMo：面向手机智能体的多模态大模型微调数据配比优化器）

[04:55 ] 🚀 Unified Reinforcement and Imitation Learning for Vision-Language Models（统一强化与模仿学习的视觉-语言模型）

[05:28 ] 🖼 Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing（Pico-Banana-400K：面向文本引导图像编辑的大规模高质量数据集）

[06:17 ] 📊 FinSight: Towards Real-World Financial Deep Research（FinSight：迈向真实场景的金融深度研究）

[07:06 ] 🧠 Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues（他们是恋人还是朋友？评估大语言模型在英韩对话中的社会推理能力）

[07:43 ] 🌍 OmniNWM: Omniscient Driving Navigation World Models（OmniNWM：全景驾驶导航全知世界模型）

[08:28 ] 🕳 Attention Sinks in Diffusion Language Models（扩散语言模型中的注意力沉陷现象）

[09:04 ] 📄 olmOCR 2: Unit Test Rewards for Document OCR（olmOCR 2：基于单元测试奖励的文档OCR系统）

[09:42 ] 🧠 KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints（KORE：通过知识导向增强与约束为大模型持续注入知识）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

2025-10-2710:29

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

2025-10-2613:26

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

2025-10-2410:39

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025-10-2310:46

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025-10-2211:14

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025-10-2110:06

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

2025-10-2011:11

【周末特辑】10月第3周最火AI论文 | 量化噪声变探索，单卡跑RL；冻结编码器放语义，DiT生成新纪录

2025-10-1813:30

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025-10-1411:24

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025-10-1310:10

【周末特辑】10月第2周最火AI论文 | 递归小模型刷爆推理榜；未来经验点亮零奖励学习

2025-10-1211:39

2025.10.10 | 早期经验的Agent Learning；图文交错反思链跃升至24.9%

2025-10-1010:00

2025.10.09 | Ming-UniVision统一视觉词表；KV-Cache直连让大模型秒聊

2025-10-0911:46

2025.10.08 | TaTToo用外挂代码干翻大模型；4B小模型32步逼近闭源巨头

2025-10-0811:16

2025.10.07 | 论文秒变演讲；Video-LMM后训练突破

2025-10-0711:02

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

2025-10-0611:02

【周末特辑】10月第1周最火AI论文 | Transformer长出大脑的壳；LongLive把长视频做成直播

2025-10-0512:14

00:00

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

#box-pro-ellipsis-176167894577517{-webkit-line-clamp:2;}2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分